摘要。随着预训练基础模型规模的快速增长,参数有效的微调技术已引起了很大的关注,其中适配器调整是最广泛使用的。尽管达到了效率,但它仍然表现不佳,并且以增加参数的成本为代价而提高。最近的效力要么集中于培训多个适配器专家以提高模型容量,要么将修剪适配器提高以达到参数效率。然而,与原始适配器相比,两种方法都引入了更多参数,因此并非计算上有效。以此为动机,我们提出了对Dapters或Mosa的ixture ixture,作为一种新型的适配器调整方法,以完全释放适配器中每个参数的潜力。我们首先将标准适配器拆分为多个非重叠模块,然后随随随随随之而来的激活它们以进行稀疏训练,最后将它们合并以在调整后形成完整的适配器。以这种方式,MOSA可以比没有任何其他计算或存储开销的标准适配器更好地实现性能。此外,我们提出了一种分层稀疏策略,以改善杠杆有限的培训数据。在一系列27个视觉任务上进行的广泛实验表明,MOSA始终超过其他适配器调整方法以及其他基线的大幅度。更重要的是,MOSA在各种模型量表,体系结构和不同的PEFT方法上带来了一致的改进。代码将发布。
主要关键词